【智库报告】抛弃超级智能系统(JARVIS),迎接开源集群应用资源(OSCAR)
今天给大家推送美国战略与国际研究中心(CSIS)的研究报告“Move Over JARVIS, Meet OSCAR:Open-Source, Cloud-Based, AI-Enabled Reporting for the Intelligence Community”《抛弃超级智能系统(JARVIS),迎接开源集群应用资源(OSCAR):为情报界提供开源的、基于云计算的、支持人工智能的报告》
“情报界(IC)之外的开源情报(OSINT)世界非常先进,而我们没有跟上它。我们已经黯然失色,我们面临着变得无关紧要的风险。我们需要迅速赶上,这样我们才不会成为代价高昂的可有可无之物。”研讨会参与者
“在未来无处不在的传感和持续感知的信息环境中,商业部门更快的技术采用率和开源情报(OSINT)的优越设施可以使其在评估快速变化的全球事件方面比情报界(IC)更有优势……情报界(IC)分析师可能会落在政策制定者的信息和决策周期之外……工作组得出结论,情报中心必须从根本上重新定义开源情报(OSINT),使其成为美国情报的基石。——保持情报优势
使用人工智能(AI)的系统每年可以为情报界(IC)分析师节省多达364小时,或超过45个工作日。大学与非机密云提供商合作运行10万个核心人工智能或机器学习(ML)模型,高级情报政策制定者公开表示,有必要将开源情报(OSINT)作为核心分析学科人们可以很容易地想象,在不久的将来,像托尼·斯塔克(Tony Stark)的超级智能系统(JARVIS)这样的设备可以帮助分析师和操作员完成广泛的任务。本文将情报界假想的开源的、基于云计算、支持人工智能的报告能力称为“OSCAR”(开源集群应用资源)。OSCAR可能还需要数年时间才能像JARVIS识别托尼(Tony)那样识别分析师的讽刺,但非机密云能力、大量公开可用信息的新来源以及人工智能/机器学习(AI/ML)工具的结合,可能会在短期内加速情报工作并转变能力。
尽管有这些潜在的优势,情报界在采用人工智能/机器学习(AI/ML)功能来理解大量未开发的开源情报(OSINT)数据方面进展缓慢。本报告以战略与国际研究中心(CSIS)的报告《保持情报优势:通过创新重新想象和重塑情报》为基础,探讨了延迟的原因,该报告明确阐述了纳入非机密、基于云计算的开源情报的好处。本后续报告重新定义了开源情报(OSINT),并研究了情报界(IC)目前如何使用将支撑开源情报(OSINT)革命的关键技术。然后讨论了这场革命的障碍,打破了根深蒂固的文化、安全实践和政策决策的因素,这些因素阻碍了人工智能/机器学习(AI/ML)应用的采用,以及将极大地帮助开源情报(OSINT)集成到更大的情报界(IC)数字工作流中的机制。在“未来的可能性”部分,它展望了情报界(IC)采用OSCAR并加速情报工作的近期、中期和长期机会。最后,它提出了一系列可操作的建议,将打破僵局,允许情报界(IC)利用云和边缘云计算、人工智能/机器学习(AI/ML)工具和开源情报(OSINT)从任何地方获取和交付情报。特别是,这份报告认为,情报界应该停止“在机密环境中重建互联网,这是非常昂贵和耗时的”,正如一位受访者所说,而是接受在非机密云上运行应用程序的少量风险,利用日益复杂和自动化的云安全和混淆功能。
已经有很多文章提倡情报界(IC)在开源情报(OSINT)和人工智能/机器学习(AI/ML)能力方面取得紧急进展。为了深入挖掘其不愿采用这些功能的根本原因,并提供可操作的建议,研究人员与情报、公开信息的商业使用、人工智能/机器学习(AI/ML)和云计算领域的专家进行了20多次访谈。我们还与这些领域的专家以及政府承包和创新方面的专家举行了一次研讨会,测试关于哪些障碍是进步的最大障碍的假设。最近从政府部门离职的专家们讨论了他们解决摩擦来源的第一手经验,并坦率地描述了挑战以及以前的尝试没有成功的原因。研讨会遵循了查塔姆研究所(Chatham House)的规则,这些规则捕捉了参与者深厚的专业知识,但允许他们匿名自由发言;因此,在脚注中,引用人物的是数字而不是名字。
业界正在从公开信息、人工智能/机器学习(AI/ML)工具的组合中收集惊人的洞察力。像贝宁猫(Bellingcat)这样的组织已经建立了开源情报(OSINT)奇才的名声。他们利用公开信息,发现了化学武器前体的非法运输,确定了一名俄罗斯高级情报官员是击落马来西亚航空公司(malaysia Airlines) mh17航班的主要嫌疑人,并确定了俄罗斯情报官员是谢尔盖·斯克里帕尔(Sergei Skripal)和尤利娅·斯克里帕尔(Yulia Skripal)中毒的嫌疑人。托管在云环境中的非机密数据源已经映射了武器系统和关键基础设施的供应链问题。一位受访者举例说,一家公司购买并有效地管理匿名手机数据,然后使用地理位置数据和公共记录来确定手机的所有者——情报界(IC)几十年来一直使用机密信息来做这种工作。2019年,《纽约时报》隐私项目利用应用程序的位置跟踪数据跟踪了特朗普总统的随行人员。在太空中,私人公司正在复制只有民族国家才能做到的事情;星球公司(Planet)每天可以对地球上的任何地点进行12次成像。这些数据被上传到云端,计算机视觉算法可以描述、测量,然后自动检测变化,提取见解并构建趋势数据。2021年8月,《经济学人》评论了开源情报(OSINT)的可能性:“有大量的可搜索数据库,有些网站可以跟踪各种有用的动态,包括飞机和船只的航线。每天都有数万亿字节的手机视频被上传到社交媒体网站,其中很多都被贴上了标签。”《经济学人》提到让丹尼斯·罗德曼(Denis Rodman)测量氢弹的大小。罗德曼的身高是已知的;罗德曼站在金正恩旁边的照片可以可靠地测量后者的身高,从而可靠地估计金正恩的头部;因此,金正恩站在朝鲜核武库旁边的许多照片可以估计这些武器的大小---找到金正恩的面部照片,然后估算出它们的大小。也许,当武器库的规模突然缩小或扩大时,机器甚至可以提醒人类。
什么是OSINT,它应该是什么?
情报界长期以来一直在为开源情报(OSINT)的想法而挣扎。毕竟,情报机构是为了窃取机密和发现敌人试图隐藏的东西而创建的。国务院收集某个国家希望华盛顿看到的信息;新闻媒体收集公众想要知道的信息。几十年来,开源情报(OSINT)的意思是新闻报道,分析师们应该了解并将其纳入工作,但主要是作为高度机密报告的辅助信息。在CNN时代,开源情报(OSINT)也是“CNN- 情”。CNN当时正在现场直播,在信号情报(SIGINT)被处理或人力情报(HUMINT)来源得到反馈之前,CNN报道了一个故事的初步进展。对中央情报局(CIA)分析师的指示总是,“不要试图成为CNN”——换句话说,在总统每日简报(PDB)或世界情报评论(WIRe)出版物上写任何CNN已经在12小时前向世界广播的东西,对政策制定者毫无帮助,对该机构也很尴尬。相反,分析人士应该寻求为突发新闻增加价值,比如通过添加来自对政治背景深刻理解的专家评论,或者提供能够阐明(甚至与cnn的原始报道相矛盾)的机密报道。
现在,研究人员在一个公开数据的海洋中游泳,远远超出了有线电视新闻报道的范围,而开源情报(OSINT)的这种定义已经过时了。修订后的定义现在需要包含广泛的信息——从俄罗斯特工在VKontakte上发布的消息,到一名游客在Twitter上发布的爆炸前广场的照片,再到一家中国公司收集的广告数据。
对开源情报(OSINT)的经典定义的回顾提供了一个起点。其中一些定义具有前瞻性,其关键要素可以为新框架提供信息:
■美国国家情报总监办公室(ODNI)将开源情报(OSINT)定义为“以印刷或电子形式出现的公开可用信息,包括广播、电视、报纸、期刊、互联网、商业数据库、视频、图形和图纸。”虽然这个定义很全面,但它读起来像是为了涵盖未来法律挑战的所有可能性而写的,尤其是它对互联网上出现的任何东西的引用。
■美国国防部(DOD)的“开源情报战略”强调了情报产生的目的:“开源情报(OSINT)是从公开可用的信息中产生的情报,为了满足特定的情报需求,及时收集、利用和传播给适当的受众。”
■兰德公司(RAND Corporation)将OSINT定义为“由情报界(IC)成员发现、确定具有情报价值并传播的公开可用信息”,这一定义跳过了充分利用公开可用数据(如声音数据)所必须进行的处理。
所有这些定义都认为情报信息可以来自非秘密来源,但很少有人承认开源情报(OSINT)超越了新闻报道。行星实验室(Planet Labs)和鹰眼360 (HawkEye 360)等公司已经有能力地进入了曾经只属于富裕民族国家的领域。其他公司则为私人分析服务做广告,还有一些公司,比如英国石油(BP),声称将人力资源纳入其中。以色列的NSO集团最近上了头条,因为它向外国情报机构出售了只需点击一下目标手机就能侵入任何手机的能力。这种能力模糊了秘密信息和公开信息之间的界限。然而,我们可以假设,如果数据可以合法购买,那么美国的对手很可能可以访问这些数据,任何公司实体都可以。它应该被算作开源,这需要进一步扩展定义。
就本文而言,开源情报(OSINT)是从公开可用或可购买的信息中收集的情报,用于满足特定的情报需求,并对其进行处理以获得新的见解。
开源集群应用资源(OSCAR)的祖父:现在情报界使用云,人工智能/机器学习(AI/ML)和开源情报(OSINT)
情报界已经采取了初步步骤,以采用使OSCAR成为现实所需的每一项技术。虽然情报界与开源情报(OSINT)的关系时断时续,而且它对人工智能/机器学习(AI/ML)的采用也不均衡,但它已经承诺使用云资源。自2017年以来,美国国家情报总监办公室(ODNI)已在秘密和非机密结构上使用商业云服务(C2S)。2019年,美国国家情报总监办公室(ODNI)的《促进情报界云计算的战略计划》称:
情报界(IC)的云功能将支持不同的用户集,包括断开连接或边缘操作。这些能力将提供创新的当代技术,如人工智能(AI)、机器学习(ML)和高性能计算,以满足当前和未来的需求。这些功能将需要统一的安全流程和验收,以支持应用程序、数据和代码的快速采用和可移植性。情报界(IC)将以一种有利于供应商灵活性的方式利用这些功能,简化新技术和云原生技术的使用和采用,并促进必要的文化变革。
关于人工智能/机器学习(AI/ML),情报界的一些成员正在使用计算机视觉来收集线索和线索,特别是在国家地理空间情报局(NGA)。虽然开源情报(OSINT)一直用于情报分析,但情报界(IC)内部的许多人都认识到公开可用数据集的价值,并经历了律师和合同的挑战,试图获得最关键的数据集。
拜登政府还明确表示,它认为数据和数据分析具有战略重要性。美国国防部副部长凯瑟琳·希克斯6月在国防部人工智能研讨会和技术交流上发表讲话,并于2021年5月在给员工的一份关于“创造数据优势”的备忘录中表示,国防部将向每个作战司令部的数据办公室前沿部署作战数据团队(odt),以扩大现有工作,使数据“可见、可访问、可理解、可链接、可信任、可互操作和安全”。
开源集群应用资源(OSCAR)的障碍
尽管有几个成功的试点项目和高层对采用的承诺,但情报界(IC)在采用开源情报(OSINT)、云计算和人工智能/机器学习(AI/ML)工具的组合方面仍然落后,这些工具将在未来十年推动情报工作。在CSIS的文献综述和专家访谈中,出现了7个关于普遍接受该技术的最大障碍的假设:
1. 这是一个政策问题。
▪收购政策太慢,要求太严格。法律、法规和需求关注的是技术规范,而不是期望的结果。
▪预算周期冗长而死板,无法考虑创新。
2. 这是一个混乱的数据问题。
▪情报界(IC)数据没有标准化,目前的许多数据无法使用。更新、建模和移动数据所需的前期费用和时间是采用可以利用遗留数据的新技术的主要障碍。
3.这是一个安全问题。
▪情报界(IC)安全官员对非机密云和现成的人工智能/机器学习(AI/ML)应用程序的担忧尚未解决——尽管云提供商声称,他们的平台比机构拥有的服务器更安全,因为他们能够快速识别和修补问题,并且拥有大型和最新的安全团队。
4. 这是一个定制需求的问题。
▪情报界(IC)表示,它希望采用现成的云和人工智能/机器学习(AI/ML)应用程序,但随后增加了许多具体的额外要求。这些额外的需求不仅抵消了大量的成本节约,限制了云环境的功能,而且还使小型科技公司难以适应商用现货(COTS)产品来竞争。
5. 这是一个业务流程问题。
▪美国政府不是为快速变革而设计的,而快速变革对于跟上人工智能/机器学习(AI/ML)的步伐至关重要。当授予操作权限(ATO)的过程完成时,最先进的状态已经发生了变化。
6. 这是国会监管的问题。
▪国会不允许在“失败”上“浪费”钱情报界(IC)评估合并非机密云和人工智能/机器学习(AI/ML)应用程序是高风险的。
7. 这是一个无定形的文化问题,上面没有一个能充分表达其原因。
研究人员召开了一次研讨会,进一步验证这些假设。一开始,参与者就七个假设中哪一个代表了需要解决的最重要的问题进行投票。他们选择了文化问题作为最关键的问题,其次是安全问题,然后是政策和速度之间的关系,我们将其结合到政策探索中,包括那些减缓收购过程的政策。研究人员将参与者分成三个讨论小组,每个小组解决其中一个问题然后,小组重新召集,与其他参与者分享调查结果,并继续对话。
从讨论中得出的一个重要结论是:美国政府只采用适合当前体系的技术,但当前体系阻碍了冒险和快速创新。政府可能需要重新设计收购和采用流程——或者甚至开发一个并行流程——这样它就可以规避许多遗留需求并适应革命性的技术。
《保持情报优势:通过创新重新想象和重塑情报》
附录C:特别小组建议摘要
完整原文及百分点机器文档已上传知识星球
长按识别下面的二维码可加入星球
里面已有5千多篇资料可供下载
越早加入越便宜
续费五折优惠